Básicos de estadística

CRG

2020-02-12

EstadĂ­stica

DefiniciĂłn

Matemática aplicada que permite interactuar con un conjunto de datos, que facilita además las labores de recolección, resumen, comparación y generalización de resultados.

Conceptos básicos

  • PoblaciĂłn

  • Muestra

  • Variable

  • Individuo

Tipos de variable

  • Cualitativas
    • dicotĂłmicas
    • politĂłmica
  • Cuantitativas
    • discretas
    • continuas

Tipos de medida

CentralizaciĂłn DispersiĂłn PosiciĂłn DistribuciĂłn
Media Desviación estándar Cuartiles Asimetría
Mediana Varianza Deciles Curtosis
Moda Rango Percentiles

EstadĂ­stica descriptiva

Análisis exploratorio de datos que proporciona herramientas estadística que permiten la visualización y representación objetiva de la información.

Objetivos

  • Evaluar la calidad y consistencia de los datos.
  • Determinar la distribuciĂłn de las variables en estudio.
  • Desplegar posibles patrones de comportamiento de los datos.
  • Aplicar el tratamiento de datos ausentes.
  • Detectar datos atĂ­picos.
  • Comprobar supuestos.
    • normalidad
    • linealidad
    • homocedasticidad

Descripciones usuales

Escala de medida Frecuencias Posición Dispersión Distribución Gráficos
Normal Si Moda No No Barras, pastel
Ordinal Si Moda No No Barras, áreas, pastel
Cuantitativas No Media,Moda, Mediana Si Si Histogramas, áreas, dispersión

Visualización estática

graphics

with(cars, scatter.smooth(speed, dist, pch = 18, col = "dodgerblue4",
               lpars = list(col = "red3", lwd = 2)))
grid(col = "gray80")

lattice

library(lattice)
xyplot(dist ~ speed, data = cars, type = c("p", "smooth"), pch = 18,
       grid = TRUE, col = "dodgerblue4", col.line = "red3", lwd = 2)

ggplot2

library(ggplot2)
library(dplyr)
cars %>% 
  ggplot(data = ., aes(x = speed, y = dist)) +
  geom_point(pch = 18, size = 2, color = "dodgerblue4") +
  geom_smooth(se = FALSE, color = "red3", method = "loess", span = 2/3) +
  theme_light()

ggvis

library(ggvis)
cars %>% 
  ggvis(x = ~speed, y = ~dist) %>%  
  layer_points(shape := "diamond", fill = "dodgerblue4", stroke := "black") %>% 
  layer_smooths(stroke := "firebrick", span = 2/3) %>% 
  hide_legend("fill")

VisualizaciĂłn interactiva

plotly

library(plotly)
cars %>% 
  plot_ly(x = ~speed, y = ~dist, color = I("dodgerblue4"), stroke = I("black"),
          symbol = I("diamond"), type = "scatter") %>% 
  add_lines(y = ~fitted(loess(dist ~ speed, span = 2/3)), color = I("red3")) %>% 
  layout(showlegend = FALSE)

dygraphs

library(dygraphs)
lungDeaths <- cbind(mdeaths, fdeaths)
dygraph(lungDeaths)

taucharts

devtools::install_github("hrbrmstr/taucharts")
library(taucharts)
CO2 %>%
  tauchart( ) %>%
  tau_point( "conc", c("Treatment","uptake"), "Plant" ) %>%
  tau_tooltip( ) %>%
  tau_trendline( )

metricsgraphics

library(metricsgraphics)
mtcars %>%
  mjs_plot(x=wt, y=mpg, width=600, height=500) %>%
  mjs_point(least_squares=TRUE) %>%
  mjs_labs(x="Weight of Car", y="Miles per Gallon")

highcharter

library("highcharter")
data(diamonds, mpg, package = "ggplot2")

hchart(mpg, "scatter", hcaes(x = displ, y = hwy, group = class))

echarts4r

library(echarts4r)
e1 <- iris %>% 
  group_by(Species) %>% 
  e_charts(
    Sepal.Length,
    elementId = "chart"
  ) %>% 
  e_scatter(Petal.Length, Sepal.Width) %>% 
  e_datazoom(show = FALSE, y_index = 0) %>% 
  e_x_axis(min = 4)
e1

Recursos